Evolução das Arquiteturas de MLLM: Do Foco em Visão para Integração Multissensorial

Evolução das Arquiteturas de MLLM

A evolução dos Modelos de Linguagem de Grande Escala Multimodal (MLLMs) marca uma mudança dos silos específicos por modalidade para Espaços de Representação Unificados, onde sinais não textuais (imagens, áudio, 3D) são traduzidos para uma linguagem que o modelo de linguagem entende.

1. Da Visão para Multissensorial

MLLMs Iniciais:Focavam-se principalmente nos Transformadores de Visão (ViT) para tarefas de imagem-texto.
Arquiteturas Modernas:Integram Áudio (por exemplo, HuBERT, Whisper) e Nuvens de Pontos 3D (por exemplo, Point-BERT) para alcançar uma inteligência verdadeiramente cruzada entre modalidades.

2. A Ponte de Projeção

Para conectar diferentes modalidades ao modelo de linguagem, é necessária uma ponte matemática:

Projeção Linear:Uma mapeamento simples usado em modelos iniciais como o MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$
MLP de Múltiplas Camadas:Um método de duas camadas (por exemplo, LLaVA-1.5) que oferece uma melhor alinhamento de características complexas por meio de transformações não lineares.
Redimensionadores/Abstratores:Ferramentas avançadas como o Redimensionador Perceiver (Flamingo) ou o Q-Former que condensam dados de alta dimensão em tokens de comprimento fixo.

3. Estratégias de Decodificação

Tokens Discretos:Representando saídas como entradas específicas no dicionário (por exemplo, VideoPoet).
Embeddings Contínuos:Usando sinais "suaves" para guiar geradores especializados na fase posterior (por exemplo, NExT-GPT).

A Regra da Projeção

Para que um modelo de linguagem processe um som ou um objeto 3D, o sinal deve ser projetado no espaço semântico existente do modelo de linguagem, para que seja interpretado como um "sinal de modalidade" e não como ruído.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?

Token Dropping

Two-layer MLP or Resamplers (e.g., Q-Former)

Softmax Activation

Linear Projection

Question 2

What is the primary role of ImageBind or LanguageBind in this architecture?

To generate text from images

To compress video files

To create a Unified/Joint representation space for multiple modalities

To increase the LLM context window

Challenge: Designing an Any-to-Any System

Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.

You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.

Step 1

Select the correct encoder for the input signal.

Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.

Step 2

Apply a Projection Layer.

Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).

Step 3

Generate and Decode the output.

Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.